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摘 要 : 扩散 模型 是 一 种 强大 的 生成 模型 ， 能 够 在 图 像 、 文 本 和 音频 等 多 个 领域 内 产生 高 质量 的 结果 。 本 综述 旨 在 汇 
总 和 分 析 应 用 于 视觉 领域 的 扩散 生成 模型 的 最 新 研究 进展 ， 包 括 该 领域 的 理论 和 实践 贡献 。 本 文 首先 探讨 了 去 噪 扩散 
概率 模型 、 基 于 分 数 的 扩散 生成 模型 和 随机 微分 方程 的 扩散 生成 模型 这 三 种 主流 模型 的 特点 和 原理 ， 并 分 析 了 旨 在 优 
es 
自然 语言 处 理 、 时 间 序 列 分 析 、 多 模 态 研究 以 及 跨 学 科 等 多 个 领域 的 实际 应 用 。 最 后 ， 基 于 当前 的 研究 趋势 和 挑战 ， 
Renee et ont Pee 页 域 的 研究 提供 指导 和 启发 。 本 文 则 在 为 研究 人 员 提 供 一 个 关于 扩 
艇 模型 研究 和 应 用 的 全 面 视图 ， 强 调 其 在 人 工 智能 生成 内 容 CAIC 领域 的 重要 地 位 和 未 来 潜力 。 
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Abstract: Diffusion models are a powerful type of generative model capable of producing high-quality results in various fields 
including images, text, and audio. This review aims to summarize and analyze the latest research progress in diffusion models 
applied in the vision domain, including both theoretical and practical contributions in the field. Initially, the article discusses the 
characteristics and principles of three mainstream models: denoising diffusion probabilistic models, score-based diffusion generative 
models, and diffusion generative models based on stochastic differential equations. It also analyzes derivatives aimed at optimizing 
internal algorithms and improving sampling efficiency. Furthermore, the review provides a comprehensive summary of current 
applications of diffusion models, including computer vision, natural language processing, time series analysis, multimodal research, 
and interdisciplinary fields. Finally, based on current trends and challenges, it offers a forecast for the future direction of diffusion 
models, aiming to guide and inspire research in the field. This article is intended to provide researchers with a comprehensive 
overview of diffusion model research and application, emphasizing its significant role and potential in the field of Artificial 
Intelligence Generated Content (AIGC). 
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在 当代 科技 迅猛 发 展 的 背景 下 ， 计 算 机 视觉 和 
人 工 智能 成 为 了 推动 许多 领域 前 进 的 关键 力量 。 特 
别 是 在 生成 模型 的 领域 ， 从 基本 的 模型 到 现今 高 度 
复杂 和 精细 的 模型 的 演化 ， 这 些 模型 不 仅 在 理论 上 
拓宽 了 我 们 的 视野 ， 也 在 实际 应 用 中 展示 了 巨大 湾 
力 。 如 图 1 所 示 ， 在 众多 生成 模型 中 ， 扩 散 模型 以 
其 独特 的 生成 方式 和 高 质量 的 输出 成 果 而 皆 露 头 
角 ， 迅 速成 为 学 术 界 和 工业 界 的 热点 。 
随 着 大 数据 时 代 的 来 临 ， 如 何 有 效 地 处 理 和 利 
用 海量 数据 成 为 了 一 个 挑战 。 在 这 个 背景 下 ， 生 成 
模型 特别 是 扩散 模型 ， 展 示 了 处 理 和 生成 高 质量 数 
据 的 能 力 。 扩 散 模 型 以 其 高 度 的 灵活 性 和 强大 的 生 
成 能 力 ， 在 众多 领域 中 找到 了 应 用 ， 包 括 但 不 限于 
图 像 生成 、 超 分 辨 率 、 图 像 修复 和 编辑 ， 以 及 在 自 
然 语言 处 理 和 多 模 态 学 习 中 的 应 用 。 

此 外 ， 随 着 计算 能 力 的 不 断 增强 ， 扩 散 模 型 正 
逐步 克服 其 计算 成 本 高 郧 等 限制 ， 不 断 提升 其 实用 
性 和 效率 。 同 时 ， 学 界 也 在 积极 探索 如 何 进 一 步 提 
高 这 些 模型 的 性 能 和 泛 化 能 力 ， 包 括 通过 算法 优化 
和 新 模型 架构 的 设计 。 然 而 ， 扩 散 模 型 的 研究 和 应 
用 还 处 于 发 展 阶段 ， 许 多 潜在 的 应 用 和 改进 空间 有 
待 挖掘 。 
因此 ， 本 文 间 在 综述 扩散 模型 的 最 新 研究 成 果 
和 进展 ， 分 析 当 前 的 应 用 情况 和 面临 的 挑战 ， 并 预 
测 未 来 的 发 展 趋势 。 我们 将 从 模型 的 基础 理论 入 手 ， 
逐步 深入 到 各 种 模型 的 设计 和 应 用 ， 最 终 探 讨 如 何 
将 这 些 理论 和 技术 转化 为 解决 实际 问题 的 有 效 工 
具 。 通 过 这 种 方式 ， 本 文 希望 为 扩散 模型 的 研究 和 
应 用 提供 一 份 全 面 而 深入 的 参考 。 
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1 扩散 模型 介绍 


生成 式 模 型 本 质 上 是 一 组 概率 分 布 。 如 图 2 所 
示 ， 左 边 是 一 个 训练 数据 集 ， 里 面 所 有 的 数据 都 是 
从 某 个 数据 pdata 中 独立 同 分 布 取出 的 随机 样本 。 右 
边 就 是 其 生成 式 模型 (概率 分 布 )， 在 这 种 概率 分 布 
中 ， 找 出 一 个 分 布 p 9 使 得 它 离 的 pdata 距离 最 近 。 
接着 在 p06 上 采 新 的 样本 ， 可 以 获得 源源 不 断 的 新 
数据 。 但 是 往往 pdata 的 形式 是 非常 复杂 的 , 而 且 图 
像 的 维度 很 高 ， 我 们 很 难 遍历 整个 空间 ， 同 时 我 们 
能 观测 到 的 数据 样本 也 有 限 。 
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图 2 生成 式 模型 流程 


Fig. 2 Generative model flow 


目前 生成 式 模 型 目前 有 四 个 分 支 , 如 图 3 所 示 ， 
分 别 是 : 由 Ian Goodfellow 等 人 于 2014 年 提出 的 生 
成 对 抗 网 络 (Generative Adversarial Models, GAN ) 
[1]， 其 原理 是 通过 判别 器 和 生成 器 的 互相 博弈 来 让 
生成 器 生成 足以 以 假 乱 真 的 图 像 。GAN 已 经 在 图 像 
生成 、 超 分 辩 紊 、 图 像 编辑 等 领域 取得 了 显著 的 成 
功 。 变 分 自 编码 器 (Variance Auto-Encoder, VAE) 
[2] 是 一 种 基于 概率 分 布 的 生成 模型 ， 由 Kingma 和 
Welling 于 2013 年 提出 。VAE 的 核心 思想 是 通过 一 
个 编码 器 将 输入 图 像 编 码 成 特征 向 量 ， 它 用 来 学 习 
高 斯 分 布 的 均值 和 方差 ， 而 解码 器 则 可 以 将 特征 向 
量 转化 为 生成 图 像 ， 它 侧重 于 学 习 生 成 能 力 。VAE 
在 生成 可 解释 性 强 的 样本 和 生成 带 有 特定 属性 的 样 
本 方面 具有 广泛 的 应 用 。 标 准 化 流 模 型 
(Normalization Flow, NF) [3,4] 一 种 通过 一 系列 可 
道 的 转换 函数 将 简单 分 布 转化 为 复杂 分 布 的 生成 模 
型 。 这 些 转换 函数 通过 改变 概率 密度 函数 的 形状 ， 
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图 1 Papers With Code 网 站 上 近年 来 Diffusion 相关 论文 占 
比 变化 
Fig. 1 Changes in the percentage of Diffusion-related papers on 


the Papers With Code website in recent years 


使 其 逐渐 接近 目标 分 布 。 标 准 化 流 模型 在 生成 高 维 
数据 和 生成 具有 多 模 态 分 布 的 样本 方面 表现 出 色 。 
它 的 一 个 关键 优势 是 可 以 通过 逐步 变换 生成 样本 ， 
使 得 生成 过 程 可 解释 且 可 控 。 扩 散 模型 (Diffusion 


Models, DM) [5] 是 一 种 利用 正 向 过 程 和 反 向 过 程 
来 生成 样本 的 生成 模型 。 在 正 向 过 程 中 ， 噪 声 逐 渐 
加 入 到 数据 中 ， 而 在 反 向 过 程 中 ， 模 型 试图 逆向 预 
测 每 一 步 加 入 的 噪声 ， 从 而 逐渐 还 原 得 到 无 噪声 的 
样本 。 扩 散 模型 采用 了 深度 学 习 的 反 向 传播 算法 来 
训练 ， 但 其 本 质 上 是 一 个 马尔 可 夫 模型 。 扩 散 模 型 
的 一 个 关键 优势 是 其 生成 的 样本 质量 高 ， 且 模型 理 
论 基础 扎实 ， 包 括 概 率 模型 和 随机 微分 方程 等 。 它 
们 也 因 可 生成 高 度 真 实感 和 多 样 化 的 样本 而 受到 青 
睐 .打破 了 GAN 在 具有 挑战 性 的 图 像 合成 任务 中 的 
长 期 主导 地 位 ， 并 且 在 计算 机 视觉 [6 - 16]、 自 然 语 
言 处 理 [17 - 22]、 时 间 序 列 [23 - 25]、 多 模 态 [26 - 33] 
以 及 与 传统 科目 [34 - 42] 的 结合 等 领域 都 展现 出 不 
俗 的 表现 。 

然而 ， 这 些 模型 通常 需要 较 长 的 训练 时 间 和 大 
量 的 计算 资源 ， 这 是 因为 反 向 扩散 过 程 涉 及 大 量 的 
ERD. SMI, MATRA, VRE TIE 
正在 被 提出 来 优化 这 些 模 型 的 效率 和 性 能 。 综 合 比 
较 这 些 模型 ， 扩 散 模 型 以 其 卓越 的 性 能 和 持续 的 技 
术 优化 ， 被 认为 是 目前 最 优秀 的 生成 模型 。 
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图 3 四 种 主流 生成 模型 框架 图 


Fig.3 Framework diagram of four mainstream generative 


models 


总 的 来 说 ， 扩 散 模 型 作为 深度 学 习 领 域 的 一 个 
研究 热点 ， 不 仅 在 理论 上 具有 重要 意义 ， 同 时 在 实 
践 中 也 展现 出 巨大 的 应 用 潜力 ， 引 领 着 生成 模型 的 
未 来 发 展 。 
目前 扩散 模型 主要 可 以 划分 为 三 个 类 别 : K 
扩散 概率 模型 (Denoising Diffusion Probabilistic 
Models, DDPM) [5,43,44]、 基 于 分 数 的 生成 模型 [45 
-47] 以 及 基于 随机 微分 方程 的 生成 模型 (Stochastic 
Differential Equations, SDEs) [48]。 下 面 将 对 这 三 类 
模型 的 构造 、 理 论 基础 及 其 在 生成 过 程 中 的 差异 性 


| 


进行 深入 的 讨论 和 分 析 。 


1.1 去 噪 扩散 概率 模型 

去 噪 扩散 概率 模型 是 一 种 深度 生成 模型 ， 其 灵 
感 来 自 于 非 平衡 热力 学 , 近年 来 在 生成 高 质量 图 像 、 
音频 和 其 他 复杂 数据 分 布 方面 展现 出 了 卓越 性 能 。 
DDPM 的 核心 思想 是 模拟 数据 的 扩散 过 程 ， 如 图 4 
所 示 ， 将 结构 化 的 数据 逐步 转换 成 无 结构 的 噪声 数 
据 ， 然 后 通过 一 个 逆 过 程 重新 将 噪声 数据 转换 回 原 
始 数 据 。 
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图 4 去 噪 扩散 模型 处 理 过 程 
Fig.4 Process of Denoising Diffusion Probabilistic Models 


在 前 向 扩散 过 程 中 ， 模 型 逐步 地 向 原始 数据 
Xp ~ (Xp) 添加 高 斯 噪声 ， 形 成 一 系列 的 数据 状态 
s xx。 这 一 过 程 可 以 通过 以 下 马尔 可 夫 链 定 
义 : 
q(x, | X) E N(x;41-2, hash, -I),vt E MeT) 


(1.1) 
其 中 te {1,…,T} RRP HOR, p 是 与 每 一 
步 相关 的 方差 超 参 数 , I EAI, N(x; u, d) 代表 
生成 x 的 均值 4 和 协 方 差 6 的 正 态 分 布 。 
q(x, | X,_,) 允许 我 们 通过 单 步 操作 直接 从 原始 图 像 
采样 任意 噪声 版 本 x,，, 即 x, 可 以 通过 原始 数据 X 和 
方差 计划 p, 直接 采样 得 到 。 
在 反 向 生成 过 程 中 ，DDPM 的 核心 任务 是 逐步 
去 除 前 向 过 程 中 引入 的 噪声 , 并 恢复 出 清晰 的 数据 。 
这 一 过 程 的 目标 是 训练 一 个 神经 网 络 来 模拟 从 噪声 
RS x, ~N(0, 了 ) 反 向 生成 原始 数据 的 逆 过 程 。 在 
实践 中 ， 这 通常 通过 最 小 化 变 分 下 界 进行 ， 其 中 
Sohl-Dickstein 等 人 [49] 所 提出 的 负 对 数 似 然 的 变 
DFF Lp 通常 包含 多 个 KL BUEN: 


Lim = 108 po (xo 1%) + KL(DO% | xo) I] (x7)) + 
È KLP 1%,x0) Il Po Œa 1x) 


其 中 KL 表示 两 个 概率 分 布 之 间 的 Kullback- 
Leibler 散 度 。 在 这 个 框架 下 ， 网 络 被 训练 以 使 
Po(x | 过 ) 尽 可 能 接近 真实 的 后 验 分 布 。 

通过 这 种 迭代 去 噪 和 重建 的 过 程 ，DDPM 能 够 


化 ，s(x,7) 是 在 时 间 t 处 的 分 数 函 数 ， 表 示 数 据 分 
布 在 x 处 的 概率 密度 变化 的 方向 和 速率 。d 是 微小 
的 时 间 增 量 。g(7) 是 噪声 系数 ，d 矿 是 噪声 项 。 通 
过 解 这 个 SDE， 模 型 可 以 逐渐 从 噪声 样本 生成 目标 
数据 分 布 的 样本 。 

尽管 基于 分 数 的 生成 模型 在 生成 高 质量 和 多 样 
化 样本 方面 显示 出 巨大 潜力 ， 但 它们 的 计算 成 本 较 


生成 与 原始 数据 极其 相似 的 样本 ， 有 具有 非常 高 的 质 
量 和 细节 保 真 度 。 这 种 方法 的 成 功 依赖 于 精心 设计 
的 扩散 步骤 和 高 效 的 网 络 结构 ， 以 及 在 训练 过 程 中 
对 概率 分 布 进行 精确 估计 的 能 力 。 随 着 技术 的 不 断 
进步 ， DDPM 在 图 像 合 成 、 音 频 生成 等 领域 展示 了 
其 强大 的 潜力 ， 成 为 深度 学 习 和 生成 模型 领域 的 一 
大 亮点 。 


1.2 基于 分 数 的 生成 扩散 模型 

基于 分 数 的 生成 扩散 模型 ， 也 称 为 Score-based 
Generative Models, 是 一 种 先进 的 深度 生成 模型 ， 它 
们 通过 操纵 数据 分 布 的 分 数 函 数 ， 即 是 概率 密度 函 
数 对 数 的 梯度 来 生成 数据 。 这 些 模型 的 核心 思想 是 ， 
通过 逐渐 调整 添加 到 数据 中 的 噪声 ， 可 以 引导 数据 
转换 从 一 个 简单 的 高 斯 分 布 逐渐 变化 成 复杂 的 目标 
分 布 。 在 这 些 模型 中 ， 分 数 函 数 表 示 了 在 每 一 点 上 
数据 分 布 的 变化 速率 ， 为 数据 的 生成 路 径 提供 了 指 
引 。 


在 训练 阶段 ， 分 数 模型 的 目标 是 学 习 一 个 能 够 
准确 估计 给 定数 据点 分 数 的 神经 网 络 。 通 常 ， 这 个 
网 络 被 训练 来 最 小 化 预测 分 数 与 真实 分 数 之 间 的 差 


异 ， 这 可 以 用 平方 误差 来 表示 : 
L(0)= E, paaa (*)s0~ N(0,7) 


1.3 

[|| p(x + OAEV, log pi (x+o Ta i 

Rp, E 表示 期 望 ， 表 明 是 对 所 有 数据 点 和 噪 
声 实 例 的 平均 误差 ，s0 是 模型 学 习 的 分 数 函 数 ， 
V NOS py (xX+0O 是 数据 点 x 处 的 真实 分 数 , pdaa 
是 数据 的 真实 分 布 ，O 代 表 从 标准 正 态 分 布 NOOD 
采样 的 噪声 ， 而 o 是 噪声 的 标准 差 ， 用 于 调整 噪声 
强度 。 
在 数据 生成 过 程 中 ， 模 型 从 一 个 简单 的 高 斯 分 
布 开始 ， 然 后 逐步 应 用 逆向 扩散 步 又 来 生成 数据 。 
这 个 过 程 通常 被 建 模 为 一 个 连续 的 随机 过 程 ， 可 以 
用 以 下 的 随机 微分 方程 (SDE) 来 表示 : 


dx = s(x,t)dt+ g(t)dw (1.4) 
其 中 ， dx 表示 数据 x 在 微小 时 间 间 隔 内 的 变 


高 ， 需 要 大 量 的 数据 和 时 间 来 训练 。 此 外 ， 设 计 和 
优化 这 些 模型 的 分 数 函 数 是 一 个 挑战 ， 因 为 它 要 求 
对 数据 分 布 有 准确 的 估计 。 然 而 ， 尽 管 存在 这 些 挑 
战 , 基于 分 数 的 生成 模型 因 其 生成 质量 和 理论 优势 ， 
仍然 是 生成 模型 领域 中 的 一 个 重要 和 活跃 的 研究 方 
向 。 随 着 计算 资源 的 改善 和 算法 的 进步 ， 这 些 挑 战 
有 望 被 逐渐 克服 ， 基 于 分 数 的 模型 在 未 来 有 望 在 各 
种 数据 生成 任务 中 发 挥 更 重要 的 作用 。 


1.3 基于 随机 微分 方程 的 扩散 生成 模型 
基于 随机 微分 方程 (SDEs) 的 扩散 生成 模型 的 
发 展 始 于 对 物理 世界 中 随机 扩散 过 程 的 研究 ， 这 种 
扩散 过 程 通常 使 用 SDEs 来 数学 描述 。 这 些 方 程 在 
物理 学 、 化 学 、 生 物 学 以 及 金融 学 中 有 着 广泛 的 应 
用 ， 为 描述 系统 在 随机 力 影响 下 的 时 间 演 化 提供 了 
强大 的 工具 。 在 深度 学 习 领 域 的 早期 ， 这 些 原理 并 
未 被 广泛 应 用 ， 但 随 着 生成 模型 的 需求 增长 和 理论 
研究 的 深入 ， 研 究 者 开始 探索 将 这 些 数学 工具 应 用 
于 数据 生成 。 由 于 噪声 数量 的 增加 会 伴随 样本 生成 
质量 提高 ， 所 以 Song 提出 了 一 个 可 以 无 穷 随 机 人生 
成 噪声 的 方法 ， 来 提高 样本 的 生成 质量 。 
随机 微分 方程 基本 形式 可 以 表示 为 : 


dx, = f (x,,t)dt + g(t)dB, (1.5) 


Ty 


gi 


BOR, de 是 变量 x 在 时 间 t 的 微小 变化 ， 
Sxnt) 是 决定 性 的 漂移 项 , 描述 了 系统 状态 的 预期 
AE, g(t) 是 噪声 项 的 强度 ， 而 dB, 是 布朗 运 
动 ， 表 示 随 机 的 噪声 。 这 个 方程 描述 了 一 个 连续 时 
间 下 的 随机 过 程 ， 可 以 用 来 模拟 从 简单 分 布 〈 如 高 
斯 分 布 ) 到 复杂 数据 分 布 的 过 渡 。 
在 深度 生成 模型 中 ，SDEs 被 用 来 构建 一 个 从 
目标 数据 分 布 逐 渐 “ 扩 散 ” 到 一 个 简单 分 布 〈 如 高 
斯 噪声 ) 的 过 程 ， 然 后 再 逆转 这 个 过 程 来 生成 新 的 
数据 点 。 在 实际 应 用 中 ， 这 涉及 到 精确 地 模拟 和 道 
转 扩散 路 径 ， 通 常 要 求 模型 能 够 学 习 和 近似 SDE 的 
主 。 这 个 过 程 中 ， 重 要 的 是 要 确定 合适 的 漂移 和 扩 
散 项 ， 这 通常 通过 深度 神经 网 络 来 实现 ， 它 们 被 训 
练 为 预测 给 定时 间 步 的 数据 分 布 变化 。 
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ae, 
月 E， 


其 优 


计 有 


效 和 稳定 的 生成 也 至 关 重 要 。 


这 些 模型 的 发 展 带 来 了 高 质量 数据 生成 的 新 可 


特别 是 在 处 理 


势 。 然 而 ， 它 
精确 求解 和 模拟 SDE 通常 是 计生 


效 的 数值 方法 


连续 和 复杂 数据 分 布 时 展现 出 了 
们 也 引入 了 新 的 计算 挑战 ， 因 为 
密集 的 。 此 外 ， 设 


yy 


水 平 、 


来 近似 这 些 连 续 过 程 对 于 实现 高 


随 着 计算 技术 


的 进步 和 数值 方法 的 发 展 ， 基 于 


SDE 的 扩散 生成 模型 正在 成 为 生成 模型 领域 中 的 一 


个 重要 分 文 。 它 们 不 仅 为 理解 和 模拟 数据 分 布 提供 


了 新 的 视角 ， 而 且 为 生成 高 质量 、 多 样 化 的 数据 提 


Hk 


新 的 工具 ， 预 示 着 在 未 来 的 数据 生成 和 模拟 应 


用 中 


将 发 挥 更 大 的 作用 。 


2 扩散 模型 的 发 展 及 其 衍生 模型 


在 扩散 模型 的 


处 理 长 步 长 扩 


减少 
方法 
致力 
习 效 


型 
的 生 
模型 


精确 的 得 分 函 


研究 与 应 用 中 ， 其 对 于 马尔 科 夫 


链 的 依赖 性 导致 了 在 生成 样本 时 的 计算 负担 ， 尤 其 
散 过 程 时 。 随 着 扩散 步 长 的 增加 ， 


数 变 得 更 加 复杂 和 计算 密集 。 这 


些 挑 战 促使 研究 者 探索 各 种 创新 的 方法 来 优化 和 改 
进 扩散 模型 的 效率 和 性 能 。 


例如 ， 一 些 研究 集中 于 


所 需 的 扩散 步骤 数量 ， 或 者 开发 更 高 效 的 数值 


来 加 速 连 续 时 间 扩 散 过 程 的 模拟 。 其 


他 研究 则 


率 和 生成 质量 


于 改善 模型 架 


构 或 训练 策略 ， 


o 


以 提升 模型 的 学 


当前 的 研究 工作 仍然 广泛 基于 去 噪 扩 散 概 率 模 


基于 分 数 的 生成 模型 ， 以 及 基于 随机 微分 方程 


成 模型 这 三 种 扩散 模型 的 核心 理念 。 
不 仅 在 理论 上 对 原始 模型 进行 了 拓展 和 优化 ， 


而 且 
和 


这 些 衍 生 


在 实际 应 用 


也 展示 了 更 广阔 的 潜力 ， 如 图 像 


音频 的 高 质量 生成 , 以 及 复杂 数据 结构 的 模拟 等 。 


本 章节 则 在 深入 探讨 扩散 模型 及 其 衍生 模型 的 


最 新 
优化 
的 综 
重要 


精确 的 方向 发 展 。 同 时 ， 
的 发 展 方向 ， 为 未 来 的 
这 种 全 面 而 深入 的 分 析 ， 
于 扩散 模型 及 其 衍生 模型 的 当前 研究 现状 和 未 
望 的 全 景 视图 。 


个 关 
来 展 


研究 进展 ， 


包 
、 以 及 在 各 领域 的 应 用 案例 。 通 过 对 这 些 进 展 
述 ， 本 文 将 揭示 扩散 模型 在 生成 模型 


括 模型 架构 的 创新 、 训 练 方法 的 


领域 中 的 


地 位 ， 以 及 它 


们 如 何 推动 该 领域 向 更 高 效 、 更 
将 讨论 现存 的 挑战 和 未 来 
究 提 供 方向 和 启示 。 通 过 
本 章节 则 在 为 读者 提供 


21 基于 概率 去 噪 扩 散 模 型 的 优化 


在 当代 的 概率 去 噪 扩散 模型 优化 研究 中 ， 模 型 


性 能 对 参数 选择 的 依赖 性 已 引起 广泛 关注 。 由 于 概 
率 去 噪 扩散 模型 内 部 包含 多 个 可 调 参数 ， 包 括 噪声 


IH 
LO o 


2.1.1 噪声 从 


采样 步骤 、 以 及 网 络 结构 等 ， 其 性 能 和 效率 
显著 受到 参数 设置 的 影响 。 为 了 克服 这 一 挑战 ,而 
究 者 们 致力 于 探索 和 开发 各 
参数 ， 以 提升 模型 的 生成 质量 和 计算 效率 ， 因 此 基 
于 优化 各 项 参数 为 目标 的 相关 衍生 模型 也 逐渐 被 提 


在 概率 去 噪 扩 散 模 型 的 噪声 优化 领域 ， 近 期 
完 取得 了 显著 的 进展 ， 
进 噪声 注入 方式 ， 显 著 提 升 了 模型 的 生成 性 能 和 效 


策略 来 优化 这 些 关 


$ 
& 


nid 


通过 精细 调控 噪声 参数 和 改 


Z o Nichol 等 人 [50] 的 研究 通过 在 正 向 加 噪 过 程 中 引 
入 特定 的 余弦 噪声 ， 优 化 了 模型 的 对 数 似 然 性 能 ， 


同时 在 反 向 去 噪 过 程 
效 减 少 了 所 需 的 采样 步骤 ， 从 而 提高 了 整体 的 采样 
效率 。 这 种 通过 精细 调控 噪声 过 程 来 优化 模型 性 能 
的 方法 开辟 了 噪声 优化 的 新 方向 。 


引入 可 学 习 的 方差 参数 ， 有 


Kingma 等 人 [51] 则 探索 了 将 傅 里 叶 特 征 引 入 到 
网 络 输入 以 预测 噪声 的 方法 ， 并 通过 深入 分 析 扩 散 
模型 的 变 分 下 限 (Variational Lower Bound, VLB )， 
揭示 了 信 噪 比 函 数 极 值 对 扩散 损失 的 决定 性 影响 。 


这 一 发 现 不 仅 加 深 了 我 们 对 扩散 模型 损失 结构 的 理 
坚 ， 也 为 优化 模型 提供 了 重要 的 理论 依据 。 
此 外 ,动态 调整 噪声 参数 [52] 


a 


的 研究 也 在 不 断 


2S 


新 方法 使 用 了 VGG-11 卷 积 神经 网 络 来 
练 出 最 合适 的 噪声 参数 ， 以 生成 具有 更 
像样 本 ， 这 表明 通过 优化 噪声 参数 可 以 直接 影响 
生成 样本 的 质量 。 
遇 到 的 对 抗 性 攻击 问题 ,GDMP[53] 提 纯 噪音 框架 通 


高 FID 值 的 


此 外 ， 面 对 生成 样本 过 程 中 可 能 


过 在 去 噪 过 程 中 加 入 净化 机 制 ， 选 择 合适 的 扩散 时 


间 步 长 以 淹没 对 抗 性 扰动 ， 同 时 保留 输入 图 像 的 主 


要 内 容 ， 提 高 了 模型 在 实际 应 用 中 的 鲁 棒 性 和 分 类 


正确 率 。 


2. 1. 2 改进 马尔 科 夫 链 


在 概率 去 噪 扩 散 模 型 的 优化 领域 ， 改 进 马尔 科 


夫 链 的 策略 显著 提升 了 模型 在 样本 生成 速度 和 质量 
去 噪 扩散 隐 式 模型 DDIM)[54] 的 提 
是 对 传统 正 向 马尔 科 夫 过 程 的 一 大 改进 。DDIM 通 
过 实施 非 马 尔 科 夫 过 程 ， 


上 的 表现 。 


co pl 


即 在 每 一 步 去 噪 过 程 中 利 


用 预测 的 正常 样本 进行 下 一 步 估 计 ， 极 大 地 加 快 了 


采样 速度 同时 保持 了 样本 的 质量 。 


这 种 改进 对 于 减 


少 模型 对 大 量 迭 代 依赖 和 提升 生成 效率 具有 重要 意 


义 。 


继 DDIM 之 后 ， 更 多 的 研究 工作 开始 集 


一 步 改进 这 些 过 程 。Zhang 等 人 [55] 提 出 的 gDDIM 


模型 进一步 从 数值 角度 优化 了 去 噪 过 程 。 他 们 发 现 ， ” 况 ， 一 系列 改进 的 扩散 模型 被 提出 以 更 好 地 适应 这 
在 求解 相应 的 随机 微分 方程 时 ， 可 以 采用 特定 的 分 。 些 数 据 特性 ， 从 而 在 这 些 具有 挑战 性 的 数据 分 布 上 
数 近似 来 实现 DDIM， 并 且 指 出 确定 性 的 抽样 方案 ”生成 高 质量 样本 。 
相 较 于 随机 方案 能 更 加 迅速 地 进行 采样 。 这 一 发 现 Sehwag 等 人 [59] 的 研究 通过 在 每 个 时 间 步 引入 
不 仅 减少 了 模型 的 计算 负担 ， 也 为 理解 和 应 用 确定 ”两 个 额外 的 分 类 器 来 优化 扩散 模型 的 采样 过 程 ， 实 
性 过 程 在 扩散 模型 中 的 角色 提供 了 新 的 视角 。 现 了 将 生成 的 关注 度 从 高 密度 区 域 转向 低 密度 区 
这 些 研究 的 共同 目标 是 优化 马尔 科 夫 链 的 设 ee rea ba ala 
计 ， 以 便 更 快速 、 更 高 效 地 生成 高 质量 的 数据 。 这 。 这 种 策略 允许 模型 更 有 效 地 在 低 密度 区 域 生 
不 仅 涉及 到 算法 和 模型 结构 的 改进 ， 还 包括 对 模型 提高 了 在 非常 规 数据 上 的 生成 性 
采样 过 程 和 参数 设 定 的 精细 调整 。 通 过 这 些 改进 ， 能 。 
模型 不 仅 能 够 在 较 短 时 间 内 生成 样本 ， 还 能 保证 生 在 少 样本 数据 生成 方面 ，FSDM 框架 利用 条 件 
成 样本 的 多 样 性 和 质量 ， 为 处 理 复杂 和 高 维 数据 提 DDPM 进行 小 规模 图 像 生成 ， 通 过 结合 VIT[60] 框 
供 了 强 有 力 的 工具 。 架 聚 合 图 像 块 信息 ， 有 效 地 学 习 到 了 已 有 类 别 的 生 
2.1.3 多 模型 结合 成 过 程 ， 并 外 g 够 生成 更 丰富 而 复杂 的 样本 ， 以 弥补 
在 多 模型 结合 方面 ， 扩 散 模 型 与 其 他 经 典 生 成 ” 样本 量 较 少 的 不 足 。 同 时 ，DAG 模型 [61] 专 注 于 具 
模型 的 结合 已 经 成 为 提升 生成 性 能 和 拓宽 应 用 范围 有 几何 性 质 的 图 像 生成 ， 提 出 了 一 种 利用 内 部 表示 
的 重要 研究 方向 。 研 究 者 们 通过 将 扩散 模型 与 不 同 。 进行 深度 感知 图 像 生成 的 方法 ， 进 一 步 拓宽 了 扩散 
的 学 习 策 略 和 网 络 结构 相 结合 ， 旨 在 提升 模型 的 生 ”模型 在 特殊 数据 类 型 上 的 应 用 。 
成 质量 、 样 本 多 样 性 以 及 训练 效率 。 对 于 离散 数据 处 理 , Austin 等 人 [62] 提 出 了 离散 
Sinha 等 人 [56] 提 出 的 具有 对 比 表示 学 习 思 想 的 。 扩散 模型 。 这 种 模型 通过 在 正 向 过 程 中 加 入 多 个 过 
扩散 解码 模型 是 结合 了 扩散 模型 和 表示 学 习 的 一 个 ” 渡 和 矩阵 ， 并 提出 了 一 种 新 的 损失 函数 ， 该 损失 函数 
例子 。 通 过 在 扩散 过 程 中 引入 对 比 自 监督 学 习 ， 将 变 分 下 限 与 辅助 交叉 焙 损 失 结 合 起 来 ， 有 效 地 提 
模型 不 仅 能 够 从 扩散 先 验 分 布 中 学 习 生 成 样本 ， 还 高 了 模型 在 图 像 生成 的 对 数 似 然 性 上 的 性 能 ， 展 现 
能 通过 对 比 学 习 进 一 步 优 化 样本 的 表示 质量 ， 显 著 了 连续 扩散 模型 在 离散 数据 上 的 适应 性 和 潜力 。 
提高 了 生成 任务 的 性 能 ， 并 在 多 个 方面 超越 了 当时 ”2. 1. 5 超 参 数 优化 


的 VAE 模型 。 
Peebles @ 


Transformer 模型 结合 。 


等 人 [57] 的 研究 


他 们 通过 将 生成 图 像 任务 


则 将 扩散 模型 与 最 新 的 


在 扩散 模型 的 发 展 过 程 
提升 模型 效率 和 生成 质量 的 如 


常用 的 U-Net 网 络 蔡 换 为 Transformer 网 络 , 探索 了 


提高 网 络 深度 和 宽度 、 增 加 token 数量 等 策略 对 于 


模型 性 能 


长 程 依赖 和 并 行 计生 


在 处 理 图 像 等 高 
此 外 ， 
新 的 而 
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究 方 向 。 在 这 


I 影响。 这 种 结合 利 月 


优势 ， 
维 数据 时 的 能 
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性 和 质量 。 


2. 1. 4 针对 特殊 数据 


文 些 结合 


| 被 用 了 
样本 稳定 性 上 的 不 足 。 通 过 将 扩散 模型 
究 者 们 能 够 更 好 地 处 到 


进 


GAN 模型 与 扩散 模型 的 结合 合 [58] 
模型 中 ， 扩 散 模 型 


月 了 Transformers 的 
步 提 升 了 扩散 模型 


也 展现 


从 而 提 


应 性 在 


究 已 经 取得 了 显著 进展 。 对 于 特征 主要 集 
在 低 密度 区 域 的 非常 规 数 据 ， 


以 及 样本 量 较 少 的 1 


改善 GAN 在 生成 
4 引入 GAN 的 
输入 数据 和 生 
高 了 生成 样本 的 


在 处 理 特殊 数据 类 型 上 ， 扩 散 模 型 的 优化 和 适 


扩散 模型 在 正 反 向 过 程 
效率 较 低 ， 
法 来 优化 模型 的 采样 和 训 


能 导致 处 理 ? 


mh 
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样本 生成 和 更 精确 的 模型 训练 。 


Watson 的 研究 [63] 采 


进行 优化 ， 


ATED MERA T RP 
生成 样本 的 质量 。 
术 ， 该 方法 能 够 显著 减少 所 需 的 采样 步 又 ， 
加 快 了 模型 的 运行 


十 算 负 担 。 


通过 引入 KID 
并 采用 随机 梯度 下 降 方 法 


， 超 参数 优化 已 成 为 


页 域 。 考 虑 到 


对 于 马尔 科 夫 链 的 依赖 可 
研究 者 们 致力 于 通过 各 
练 过 程 ， 以 实现 更 快速 的 


Fj 


] 了 重 参数 化 和 重复 梯度 
计算 的 策略 来 优化 扩散 模型 的 快速 采样 器 ， 有 效 减 
少 了 模型 在 采样 过 程 中 的 i 
差异 指标 作为 损失 函数 ， 


此 外 ， 通 过 特殊 的 


速度 。 


A A 
Wes 


还 保持 J 
I 样 参数 化 技 
进一步 


Lam 等 人 [43] 提 出 的 双边 去 噪 扩散 模型 则 从 不 


同 的 角度 对 于 


广 散 模型 进行 优化 。 


该 模型 引入 了 调度 


理 o iw tad 


att 


型 


网 络 和 评分 网 络 ， 对 正 向 和 反 向 过 程 进行 参数 化 处 
调控 这 些 网 络 参数 ， 双 边 去 噪 扩散 模 
能 够 更 有 效 地 学 习 和 模拟 数据 的 生成 过 程 


“ys 
， 显 著 


减少 了 样本 生成 所 需 的 步 又 


的 整体 质量 


这 些 超 参数 优化 方法 的 提 
我 们 对 扩散 模型 的 理解 ， 


， 同 时 提升 了 生成 样本 


出 和 应 用 不 仅 加 深 了 


EIES T EA 


中 的 性 能 和 效率 。 
散 模 型 在 处 理 


通过 持续 的 技术 创新 和 研究 ， 


型 在 实际 应 用 


Fre AK, 


我 们 有 理 | 


加 关键 和 广泛 的 作用 ， 为 解决 各 种 复杂 数据 生成 任 
务 提供 强大 而 灵活 的 工具 。 


2.1.6 降低 KL 散 度 


期 的 研究 


相信 扩散 模型 


效率 和 生成 质量 上 的 表现 将 持续 提 
随 着 更 多 高 效 的 超 参数 优化 策略 的 开发 ， 
+ 将 在 生成 模型 领域 发 挥 更 


在 降低 KL 散 度 以 优化 反 向 去 噪 ; 


过 程 方面 ， 近 


工作 已 经 取得 了 显著 进展 。 


扩散 模型 


的 KL 散 度 对 模型 性 能 


们 致力 于 
高 模型 的 推理 效率 


通过 深入 理解 
影响， 研究 者 


开发 新 的 方法 来 最 小 化 KL 散 度 ， 从 而 提 
和 生成 质量 。 


Watson 等 


利用 了 证 据 


等 人 [64] 的 研究 通过 将 动态 规划 算法 融 
入 到 模型 中 ， 实 现 了 对 反 向 去 噪 过 程 的 优化 。 他 们 
下 界 (Evidence Lower Bound, ELBO) 可 


以 被 分 解 为 单独 的 相对 箭 项 《〈KL 散 度 项 ) 的 特性 ， 
通过 最 小 化 这 些 KL 散 度 项 来 最 大 化 ELBO 。 这 种 


方法 允许 模型 在 保持 


生成 质量 的 同时 ， 找 到 最 优 的 


理 路 径 ， 大 大 提升 


E 理 过 程 的 效率 和 效果 。 这 


种 对 KL 散 度 的 精细 调控 ， 


计 性 质 对 优化 算法 的 重要 性 。 
在 Xiao[65] 的 研究 


bo 


展现 了 深度 理解 模型 统 


生成 对 抗 网 络 


(GAN) 到 反 向 去 噪 过 程 


来 最 小 化 KL 散 度 。 
本 和 去 噪 后 的 样本 ， 


该 方法 使 用 GAN 来 区 分 真实 样 
通过 对 抗 性 训练 进一步 优化 去 


出 了 一 种 新 的 方法 


噪 过 程 


E GAN 的 方法 不 仅 提 高 了 推 
高 了 模型 


入 对 抗 性 训练 提 
性 。 
2.1.7 减少 采样 步骤 


， 最 小 化 KL 散 度 并 提高 推理 效率 。 这 种 结 


理 的 准确 


性 ,还 通过 引 


eae 


RFN BARET. Ba 
方法 来 优化 时 间 
需 的 采样 步骤 并 加 快 模型 


种 创 间 


4 对 于 真实 数据 分 布 的 适应 


， 减 少 采样 步骤 以 提升 生 
9 重要 方向 。 由 于 传统 扩散 模型 
需要 在 整个 时 间 步 长 中 选 代 生 万 数据 ， 这 一 过 程 通 
此 ， 研 究 者 们 致力 于 通过 各 
步 长 和 采样 过 程 ， 以 减少 所 
4 的 生成 速度 。 


Bao[66] 的 研究 通过 引入 对 角 和 完全 协 方 差 来 


' 优 化 方法 不 仅 加 快 了 采样 过 程 ， 也 保持 了 


优化 时 间 步 长 , 实现 了 对 DDPM 生成 效率 的 显著 提 
Ft. 这 
生成 样本 的 质量 


通过 对 时 间 步 长 的 精确 控制 和 优 


化 ， 模 型 能 够 以 更 少 的 步 又 


提高 了 整体 的 效率 。 


Chung[67] 则 从 随机 
了 随机 差分 方程 的 收缩 理论 


步骤 。 


法 通过 理论 


整体 的 生成 效率 。 


通过 对 正 向 过 程 


微分 方程 的 角度 出 发 ， 使 有 
来 优化 扩散 模型 的 采样 


初始 


上 的 深入 分 析 和 数学 上 的 严格 推 


发 现 可 以 显著 减少 反 向 去 噪 过 程 中 的 步 又。 这 
= 
减少 采样 步骤 提供 了 一 种 有 效 的 途径 ， 是 高 


生成 所 需 的 样本 ， 


显著 


ao 


nA INH, E 


ET SE Al 


2.2 基于 分 数 的 生成 扩散 模型 优化 


算法 


2.2.1 改进 采样 


在 基于 分 数 模 型 的 生 


BA 


E 务 中 ， 改 进 采 样 算法 


是 提升 模型 生成 高 
的 看 


分 辨 率 且 稳定 图 像 的 关键 。 
究 工 作 集 中 于 开发 新 策略 和 技术 以 1 


近期 
化 采样 过 


程 ， 提 高 生成 样本 的 稳定 性 和 质量 。 
Song 等 人 [45] 的 工作 代表 了 这 


一 领域 的 创新 和 


， 以 提高 


= SRE 


ane 


能 力 ， 也 为 理解 和 优化 基于 


供 了 新 的 视角 。 


步 。 他 们 在 噪声 生成 尺度 上 
， 并 在 采样 过 程 中 建议 将 指数 移动 平均 应 用 于 参 
生成 过 程 的 稳定 性 和 连贯 性 。 
还 对 分 数 和 损失 匹配 的 加 权 组 合 进行 最 小 化 处 
理 ， 以 优化 分 数 扩散 模型 的 近似 最 大 似 然 训练 [46]。 
些 方法 不 仅 提升 了 模型 在 


的 决定 方面 采用 了 新 策 


此 外 ， 他 


生成 高 质量 图 像 方面 的 


分 数 模型 的 采样 算法 提 


Jolicoeur-Martineau 等 人 [7] 则 专注 于 改进 退火 


采样 法 ， 在 这 个 过 程 


致 性 退火 采样 方案 。 


训练 方法 ， 模 型 


2. 2. 2 训练 梯度 优化 


在 分 数 生成 模型 的 
模型 效率 和 加 速 推 断 过 程 的 关键 。! 


能 够 在 保证 9 
更 加 高 效 和 稳定 的 训练 过 


， 他 个 


此 外 ， 他 们 提 
分 数 和 对 抗 目标 组 成 的 混合 训练 公式 ， 
在 进一步 提高 采样 的 稳定 性 


和 效率 。 通 过 这 种 混合 


] 引 入 了 更 加 稳定 的 一 
出 rd 去 品 
这 一 公式 由 


程 。 


成 质量 的 同时 ， 实 现 


| 练 领域 ， 梯 度 优化 是 提高 


于 分 数 生成 模 


型 通常 涉及 多 次 迭代 的 顺序 计算 ,传统 方法 
SEM WATE, Al 


可 能 时 


5 研究 者 们 开发 了 新 的 策略 和 


技术 以 优化 训练 过 程 


LSGM[68] 提 出 了 


框架 ， 旨 在 潜在 空间 


WZ 


的 核心 是 


的 梯度 计算 。 


1 他 | 


分 数 生 成 模型 。 


新 的 可 变 自动 编码 器 
该 方法 


ef 


学 习 更 平 


SHURE 


E E nea, 


于 非 连续 数据 ， 并 在 


滑 的 模型 。 通 过 在 较 低 维度 


这 


的 空 Gin, eo REMMI. 
WHE. 


方法 不 仅 提 高 了 训练 


和 推断 的 效率 ， 


还 通过 


My 
F 


习习 


F 滑 的 分 数 函 数 ， 提 高 


了 生成 样本 的 质量 。 


了 一 种 非 线性 扩散 模型 。 


预 条 件 扩散 采样 PDS) [69] 模 型 则 从 另 


个 角 


这 一 模型 基于 线性 扩散 模 


式 的 标准 SDE 模型 , 通过 结合 可 训练 的 标准 化 流 和 


度 优化 梯度 计算 。PDS 通过 矩阵 预 处 理 重新 表述 扩 
散 过 程 ， 有 效 避 免 了 传统 扩散 过 程 中 存在 的 病态 
率 问 题 。 这 一 改进 不 仅 保持 了 目标 分 布 的 质量 ，i 
显著 提升 了 模型 在 实际 应 用 中 的 效率 和 稳定 性 。 
过 对 扩散 过 程 的 数学 表述 进行 深入 分 析 和 优化 ， 
PDS 为 训练 梯度 优化 提供 了 一 种 有 效 的 途径 。 
2. 2.3 其 他 改进 方面 
在 分 数 生成 模型 的 研究 中 ， 除 了 采样 算法 和 训 
练 梯度 的 优化 ， 还 有 其 他 多 方面 的 创新 尝试 来 进 
步 提 升 模型 的 效能 和 适用 性 。 目 前 ， 正 向 过 程 在 很 
大 程度 上 依赖 于 人 工 设计 ， 这 限制 了 模型 的 灵活 性 
和 适应 性 。 为 了 解决 这 一 问题 ， 研 究 者 们 致力 于 探 
索 新 的 理论 和 方法 ， 以 更 深层 次 地 理解 和 优化 分 数 
生成 模型 。 
Du 等 人 [70] 的 研究 通过 结合 黎 曼 几何 和 蒙特 卡 
罗 方 法 的 理念 ， 对 分 数 生成 模型 的 正 向 过 程 进行 了 
深入 的 分 析 和 改进 。 他 们 提出 了 一 个 基于 正 向 过 程 
的 参数 化 扩散 模型 的 通用 框架 ， 该 框架 则 在 提供 更 
灵活 和 高 效 的 方式 来 设计 和 实现 分 数 生成 模型 的 正 
向 过 程 。 通 过 在 标准 数据 集 上 的 测试 ， 他 们 证 明了 
这 种 新 框架 的 有 效 性 ， 不 仅 在 提高 模型 性 能 方面 取 
得 了 成 果 ， 也 在 理解 和 优化 正 向 过 程 方面 提供 了 新 
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' 将 高 级 数学 理论 和 方法 应 用 于 分 数 生成 模 
究 方 向 ， 为 模型 的 设计 和 优化 提供 了 新 的 可 
。 通 过 更 深入 地 理解 模型 的 数学 本 质 和 结构 ， 
门 能 够 设计 出 更 加 精确 和 高 效 的 模型 ， 这 些 
更 好 地 适应 各 种 复杂 的 数据 生成 任务 ， 
也 能 在 理论 上 提供 更 加 丰富 的 洞 见 。 


2.3 基于 随机 微分 方程 的 生成 扩散 模型 的 优化 
2.3.1 多 模型 结合 
在 扩散 模型 的 多 模型 结合 领域 ， 研 究 者 们 通过 
引入 新 的 理论 和 技术 ， 不 断 拓 展 和 优化 基础 模型 的 
功能 和 性 能 。Zhang 等 人 [71] 的 工作 基于 微分 方程 ， 
提出 了 一 种 将 标准 化 流 与 随机 微分 方程 CSDE) 相 
结合 的 建 模 方法 。 这 种 方法 通过 联合 训练 正 向 和 反 
向 SDE 神经 网 络 ,并 最 小 化 两 者 之 间 差 异 的 共同 成 
本 函数 ， 有 效 地 模拟 了 复杂 数据 分 布 的 生成 过 程 。 
这 一 方法 的 创新 之 处 在 于 , 它 利用 后 向 SDE 扩散 过 
程 以 高 斯 分 布 开 始 ， 并 以 期 望 的 数据 分 布 结 束 ， 为 
高 质量 数据 生成 提供 了 一 种 有 效 的 路 径 。 

此 外 ，Kim 等 人 [72] 在 SDE 模型 的 基础 上 提出 


扩散 过 程 ， 夭 


= 


] 流 网 络 在 潜在 空间 


中 进行 线性 扩散 


来 学 习 噪 声 分 布 ， 然 后 在 数据 空间 上 进行 非 线 性 扩 


散 。 这 种 方法 的 创新 在 于 它 在 提高 模型 的 灵活 性 和 


生成 能 力 的 同时 ， 保 持 了 模型 结构 的 简洁 性 和 易于 


训练 的 特点 。 


Ho AINE 


受 限 于 数据 分 布局 部 领域 的 问题 。 他 们 的 方法 基于 
从 页 叶 斯 规则 衍生 出 来 的 隐 式 分 类 器 ， 只 需要 
条 件 扩散 模型 和 一 个 无 条 件 扩散 模型 ， 


了 一 个 无 分 类 器 的 引导 方法 ， 
则 在 克服 传统 模型 中 使 用 分 类 器 引导 导致 采样 结果 


个 


就 能 生成 极 


高 保 真 度 的 样本 。 这 种 无 分 类 器 引导 方法 为 生成 模 


型 提供 了 更 大 的 自 ! 


BEANE) 


同时 保 


的 适用 范围 ， 


持 了 生成 样本 的 高 质量 。 


2. 3.2 改进 采样 算法 


在 当前 的 扩散 模型 


Bx 


Tb 


， 改 进 采 样 算法 是 提 


升 模型 效率 和 生成 质量 的 关键 。 尤 其 是 在 数值 SDE 
求解 器 的 应 用 上 ， 传 统 方法 通常 需要 大 量 的 分 数 网 


络 评 估 ， 
因此 ， 


采样 过 程 ， 提 高 4 


的 SDE 求解 器 ， 殿 


能 够 逐个 为 基 


这 在 实际 应 月 


有 中 造成 了 效率 低下 的 问题 。 
研究 者 们 致力 于 开发 新 的 策略 和 技术 以 优化 
成 效率 和 质量 。 

Jolicoeur-Martineau 等 人 [74] 设 计 了 一 个 优化 后 


要 两 次 评分 函数 评估 。 


计算 负担 ， 提 高 了 生成 过 程 的 效率 ， 同 时 保持 了 生 


创新 之 处 在 
分数 的 生成 模型 量 身 定制 ， 


于 具有 自 适应 步 长 ， 
且 只 需 


这 种 优化 求解 器 大 大 降低 了 


成 样本 的 高 质量 。 
Bortoli 等 人 [75] 针 对 前 向 生成 过 程 中 噪声 分 布 
转换 为 高 斯 分 布 所 需 大 量 时 间 的 问题 ， 通 过 解决 路 
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桥 问 题 ) 来 提高 4 


成 效率 。 这 


方法 通过 优化 路 径 


分 布 的 转换 ， 实 现 了 更 快 的 前 向 生成 过 程 ， 同 时 保 
持 了 生成 样本 的 分 布 质量 。 
Dockhorn 等 人 [76] 将 扩散 模型 与 统计 力学 相 联 


:新 的 | 


备 界 阻尼 Langevin 扩散 模型 


CCLD )。 该 模型 通过 在 数据 中 添加 一 个 需要 学 习 的 


速度 变量 ， 


开学 习 给 定数 据 的 速度 条 件 分 布 函 数 ， 
从 而 简化 了 直接 学 习 数 据 分 数 的 复杂 度 ， 并 且 更 


于 生成 高 分 辨 率 图 像 。 


Liu 等 人 [77] 则 从 流 形 
看 待 扩散 模型 过 程 。 他 们 发 现 使 
解 反 向 过 程 所 返回 的 样本 质量 较 低 ， 而 伪 数 值 方法 
效率 很 快 。 为 了 提升 样本 质量 ， 


更 易 


微分 方程 求解 的 角度 来 
常规 数值 方法 求 


ae 


们 将 数值 方法 分 


为 梯度 部 分 和 传递 部 分 ， 旨 在 使 传递 部 分 尽 可 能 地 
接近 目标 流 形 , 从 而 提高 了 生成 样本 的 质量 和 效率 。 
2. 3. 3 其 他 改进 方面 
在 扩散 模型 的 研究 中 ， 针 对 高 维 数据 和 模型 解 
耦 的 改进 方面 有 了 显著 进展 ， 这 些 创 新 不 仅 提 升 了 
模型 在 特定 条 件 下 的 生成 质量 ， 也 增加 了 模型 的 灵 
活性 和 可 控 性 。 

Deasy 等 人 [78] 针 对 高 维 数据 的 挑战 , 提出 了 噪 


了 生成 图 像 的 分 辨 率 ， 也 优化 了 整体 的 生成 质量 和 


CDM[81] 模 型 则 采用 级 联 的 方式 将 多 个 扩散 模 
型 组 成 一 条 流水 线 。 这 种 级 联 方式 在 不 同 的 空间 分 
辨 率 上 采用 不 同 的 生成 模型 ， 其 中 包括 用 于 生成 低 
分 辨 率 数 据 的 基础 扩散 模型 ， 以 及 用 于 将 图 像 提高 
到 超 高 分 辨 率 的 SR3 模型 ,通过 这 种 多 级 联 的 策略 ， 
CDM 模型 不 仅 提高 了 图 像 的 分 辨 率 , 还 在 各 个 分 辨 


声 引 入 高 斯 去 噪 分 数 匹配 方法 以 实现 扩散 强度 的 可 
控 性 。 通 过 引入 重 尾 分 布 ， 该 方法 改进 了 分 数 估计 
和 采样 收敛 ， 显 著 提 升 了 无 条 件 不 平衡 数据 集 的 生 
成 性 能 。 这 一 方法 在 提升 原 随机 微分 方程 (SDE ) 
模型 在 高 维 数据 生成 上 的 表现 的 同时 ， 为 扩散 模型 
在 处 理 更 复杂 数据 结构 提供 了 新 的 可 能 性 。 

Karras 等 人 [79] 的 研究 则 聚焦 于 解决 扩散 模型 
步 又 单元 之 间 的 黑 盒 问题 ， 提 出 将 模型 分 解 成 相互 
独立 单元 的 策略 。 这 种 方法 增加 了 模型 的 可 解释 性 
和 灵活 性 ， 因 为 对 单个 单元 的 修改 不 会 影响 其 他 单 
元 的 状态 。 在 此 基础 上 ，Karras 主要 做 出 了 两 个 贡 
献 :一 是 使 用 Heun 方法 作为 常 微分 方程 求解 器 的 采 
样 过 程 ， 提 升 了 采样 过 程 的 准确 性 和 效率 ;二 是 通 
过 对 神经 网 络 的 输入 及 其 对 应 标签 进行 预 处 理 ， 以 
训练 基于 分 数 的 模型 ， 这 一 策略 提升 了 模型 的 学 习 
效率 和 生成 样本 的 质量 。 


3 扩散 模型 的 应 用 


3.1 计算 机 视觉 
3.1.1 提高 图 像 分 辨 率 

在 单 图 像 超 分 辩 率 〈SISR) 领域 ， 扩 散 生 成 模 
型 被 广泛 研究 以 解决 过 度 平滑 、 模 式 骨 溃 和 高 内 存 
占用 等 问题 ， 并 提高 生成 图 像 的 分 辨 率 。 研 究 者 们 
通过 引入 新 的 理念 和 方法 ， 不 断 提升 超 分 辩 率 图 像 
生成 的 质量 和 效率 。 

SRDiff[80] 模 型 利用 扩散 生成 模型 和 马尔 科 夫 
链 的 特性 , 将 高 分 辩 率 图 像 转换 为 潜在 的 简单 分 布 ， 
然后 在 反 向 过 程 中 逐步 生成 超 高 分 辨 率 图 像 。 这 一 
过 程 中 ， 低 分 辨 率 图 像 信 息 作为 条 件 噪 声 被 编码 # 


用 于 去 噪 处 理 ， 从 而 有 效 地 提升 了 超 分 辩 率 图 像 的 
质量 


SR3[13] 模 型 采用 迭代 细 化 策略 来 提高 图 像 分 
PES, 解决 了 单程 化 的 缺陷 。 它 结合 了 DDPM 模型 
的 随机 去 噪 过 程 , 并 通过 训练 不 同 噪声 水 平 的 U-Net 
模型 来 实现 欠 代 优化 的 去 噪 过 程 ， 从 而 有 效 实现 超 


率 层 次 上 优化 了 图 像 的 细节 和 质量 。 
3.1.2 网 像 合成 领域 
在 图 像 合 成 领域 ， 扩 散 模 型 正在 逐渐 成 为 一 种 
重要 的 替代 方法 ,特别 是 在 解决 GAN 模型 训练 不 稳 
定 和 数据 履 盖 不 全 等 问题 上 。 研 究 者 们 正 通 过 结合 
扩散 模型 的 特性 和 优势 来 创新 图 像 合成 的 方法 和 框 
架 。 
UNIT-DDPM[82] 模 型 是 将 扩散 模型 应 用 于 图 像 
合成 的 一 个 例子 , 特别 是 在 非 配对 的 图 到 图 任务 中 。 
该 模型 结合 了 DDPM 模型 ， 并 引入 了 元 数据 域 与 目 
标 数据 域 ， 通 过 将 其 中 一 个 域 的 去 噪 分 数 匹配 最 小 
化 来 形成 联合 分 布 。 然 后 ， 利 用 这 种 联合 分 布 进行 
马尔 科 夫 链 更 新 ， 并 最 终 通 过 马尔 科 夫 链 蒙 特 卡 洛 
方法 生成 去 噪 后 的 最 终 样本 。 这 种 方法 克服 了 GAN 
在 图 像 合成 中 的 一 些 局 限 性 ， 并 为 生成 更 加 丰富 和 
多 样 化 的 图 像样 本 提供 了 一 种 有 效 途径 。 
Wang 等 人 [83] 的 研究 将 DDPM 模型 应 用 在 语 
义 图 像 合成 领域 。 他 们 的 模型 将 噪声 图 像 提 供给 
U-Net 结构 的 编码 器 ， 而 语义 布局 则 通过 多 层 空 间 
自 适应 归 一 化 算 子 提供 给 解码 器 。 此 外 ， 通 过 引入 
无 分 类 器 引导 的 采样 策略 ， 进 一 步 提高 了 采样 质量 
以 及 语义 可 解释 性 。 这 种 方法 有 效 地 提升 了 语义 图 
像 合 成 的 性 能 和 灵活 性 。 
受到 自然 语言 领域 BART[84] 模 型 的 启发 ， 
ImageBART[14] 模 型 通过 学 习 反 转 多 项 式 扩散 过 程 
来 解决 自 回归 图 像 合 成 问题 。 该 模型 通过 引入 情景 
信息 ,减轻 了 自 回归 模型 的 曝光 误差 ， 并 解决 了 自 
由 形式 的 图 像 修 复 问 题 ， 而 无 需 特 定 掩 模 训 练 。 这 
种 方法 在 提高 自 回 归 图 像 合 成 效率 的 同时 ， 也 为 复 


杂 和 自由 形式 的 图 像 合成 任务 提供 了 新 的 解决 方 
案 。 
3. 1.3 多 维 图 像 领 域 


在 3D 图 像 生 成 领域 ， 扩 散 模 型 的 应 用 正在 快 
速 发 展 ， 为 高 保 真 3D 形状 合成 、 点 云 处 理 及 场景 
尺度 类 别 分 布 学 习 等 方面 提供 了 新 的 解雇 方案。 下 


高 分 辨 率 图 像 的 生成 。 这 种 迭代 细 化 策略 不 仅 提高 


完 者 们 通过 引入 创新 的 方法 和 理论 ， 不 断 提 升 3D 


图 像 生 成 的 质量 和 效率 。 

Zhou 等 人 [85] 提 出 的 形状 生成 补 全 统一 框架 
(PVD) 能 够 合成 高 保 真 形状 ， 补 全 部 分 点 云 ， 并 
从 真实 物体 的 单 视 角 深度 扫 描 中 生成 多 个 完成 结 
果 。 该 框架 通过 结合 扩散 生成 模型 的 特性 ， 实 现 了 
对 复杂 3D 形状 的 高 效 生成 和 补 全 ， 为 处 理 和 理解 
3D 形状 提供 了 新 的 工具 。 

Luo 等 人 [86] 则 提出 了 一 个 用 于 点 云 生 成 的 概 
率 模型 。 他 们 将 点 云 的 生成 视 为 学 习 将 噪声 分 布 转 
换 为 所 需 形状 分 布 的 反 向 扩散 过 程 。 这 一 模型 不 仅 
可 以 应 用 于 点 云 形状 补 全 、 上 采样 和 合成 ， 还 可 以 
用 于 数据 增强 ， 如 图 5 所 示 ， 大 大 扩展 了 点 云 数据 
的 应 用 范围 和 效率 。 这 种 将 反 向 扩散 过 程 应 用 于 点 
云 生 成 的 方法 ， 为 3D 数据 处 理 提供 了 新 的 视角 和 


可 能 性 。 
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图 5 3D 模 型 噪声 扩散 过 程 
Fig.5 3D model noise diffusion process 

Lee 等 人 [100] 使 用 离散 扩散 模型 来 学 习 场景 尺 
度 类 别 分 布 ， 并 使 用 得 出 的 类 别 分 布 来 表示 场景 ， 
从 而 将 多 个 对 象 分 配 到 对 应 的 语义 类 别 中 。 这 种 方 
法 不 仅 提高 了 场景 理解 和 分 类 的 准确 性 ， 也 为 同时 
生成 多 个 3D 图 像 提供 了 一 种 有 效 的 方法 。 通 过 这 
种 离散 扩散 模型 ， 研 究 者 们 能 够 更 好 地 理解 和 生成 
复杂 的 3D 场景 , 为 3D 图 像 生 成 和 处 理 提 供 了 新 的 


途径 。 


3.2 自然 语言 处 理 

扩散 模型 在 计算 机 视觉 领域 的 广泛 应 用 激发 了 
自然 语言 处 理 (NLP) 领域 研究 者 的 兴趣 ， 他 们 开 
始 探索 将 去 噪 扩散 模型 应 用 于 文本 处 理 的 可 能 性 。 
然而 ， 与 图 像 的 连续 空间 不 同 ， 文 本 序列 具有 离散 
的 特性 ， 这 给 直接 应 用 扩散 模型 带 来 了 挑战 。 为 了 
克服 这 一 难题 ， 研 究 者 们 提出 了 以 下 两 种 主要 的 解 
决 思路 。 
3.2. 1 将 离散 文本 映射 到 连续 的 表征 空间 


在 将 离散 文本 映射 到 连续 表征 空间 的 研究 领 
域 ，Difformer[22], DiffusionLM[23] 和 DiffuSeq[24] 
等 模型 代表 了 当前 的 技术 进步 和 理论 探索 。 这 些 模 
型 通过 引入 创新 的 结构 和 策略 ， 提 升 了 扩散 模型 在 
处 理 离散 文本 数据 上 的 能 力 ， 为 文本 生成 和 处 理 提 
供 了 新 的 方法 和 视角 。 

Difformer[22] 模 型 结合 了 Transformer 架构 和 扩 
散 模 型 的 特点 ， 通 过 引入 额外 的 锚 点 损失 函数 、 归 
一 化 模块 以 及 高 斯 噪声 因子 ， 有 效 地 将 离散 数据 转 
化 为 连续 数据 进行 训练 。 这 种 结合 提升 了 模型 在 文 
本 处 理 上 的 灵活 性 和 生成 能 力 ， 同 时 也 保持 了 
Transformer 架构 的 强大 表达 和 理解 能 

DiffusionLM[23] 模 型 提出 了 一 种 新 的 基于 连续 
扩散 的 非 自 回归 语言 模型 ， 它 将 高 斯 噪声 向 量 迭 代 
去 噪 为 单词 向 量 ， 创 建 了 向 量 之 间 层 次 连续 的 潜在 
关系 。 这 种 方法 不 仅 提 高 了 文本 生成 的 连贯 性 和 质 
量 ， 也 在 理论 上 为 理解 和 优化 文本 生成 过 程 提 供 了 
新 的 途径 。 

DiffuSeq[24] 模 型 则 通过 添加 一 个 embedding 
层 ， 将 离散 文本 映射 到 连续 的 表征 空间 。 在 反 向 过 
旦 中 ， 模 型 被 训练 来 寻找 近似 的 文本 分 布 序 列 ， 从 
而 有 效 地 生成 高 质量 的 文本 样本 。 这 种 方法 在 保持 
文本 数据 的 丰富 性 和 多 样 性 的 同时 ， 提 升 了 文本 生 
成 的 效率 和 质量 。 

3. 2. 2 泛 化 扩散 模型 

在 扩散 模型 的 泛 化 研究 中 ， 相 比 于 传统 的 将 离 
散文 本 映射 至 连续 空间 的 方法 , DiffusER[25] 模 型 提 
出 了 一 种 新 颖 的 思路 ， 着 重 于 直接 在 原始 文本 上 泛 
化 扩散 过 程 。 该 模型 的 核心 在 于 将 文本 的 编辑 操作 ， 
如 删除 、 添 加 或 修改 ， 视 作 加 噪 过 程 ， 构 建 了 一 个 
更 贴近 文本 数据 本 质 的 扩散 模型 。 在 反 向 去 噪 建 模 
过 程 中 ，DiffusER 着 力 于 学 习 文 本 的 逆 变 换 过 程 ， 
从 而 实现 目标 文本 的 高 效 生成 ， 如 图 6 所 示 。 这 种 
方法 不 仅 保持 了 文本 数据 的 离散 特性 ， 也 提供 了 一 
种 直观 且 有 效 的 文本 生成 方法 。 

另 一 方面 ，DiffusionBERT[26] 模 型 则 结合 了 流 
行 的 BERT[88] 模 型 和 扩散 模型 的 优势 , 在 训练 过 程 
中 提出 了 一 种 新 的 时 间 步 长 调度 方案 。 这 种 方案 通 
过 根据 每 个 token 的 信息 来 控制 每 一 步 加 噪 的 程度 ， 
从 而 实现 更 精细 的 噪声 控制 和 更 有 效 的 学 习 过 程 。 
通过 这 种 结合 BERT 的 方法 , DiffusionBERT 不 仅 提 
升 了 文本 生成 的 质量 ， 也 在 模型 的 理解 和 表达 能 
上 进行 了 显著 的 提升 。 
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图 6 DiffusER 文本 生成 过 程 
Fig.6 DiffusER’s text generation process 


3.3 时 间 序 列 

在 时 间 序 列 分 析 领 域 ， 扩 散 模型 的 应 用 正 日 益 
成 为 一 种 新 兴 趋 势 ， 旨 在 解决 传统 自 回 归 模 型 在 处 
理 复杂 依赖 、 数 据 缺 失 和 长 期 预测 方面 的 限制 。 扩 
散 模 型 通过 引入 新 的 结构 和 策略 ， 提 升 了 时 间 序 列 
分 析 的 精度 和 效率 。 

CSDI[23] 模 型 采用 基于 条 件 分 数 的 扩散 模型 蔡 
换 传统 的 自 回 归 模 型 来 学 习 条 件 分 布 。 该 模型 将 观 
察 数据 作为 扩散 模型 的 条 件 输 入 ， 利 用 观察 值 中 的 
言 息 进 行 去 品 处 理 。 此 外 ，CSDI 在 训练 过 程 中 采用 
自 监督 方法 , 将 观察 值 分 离 为 条 件 信息 和 插 补 目标 ， 
从 而 弥补 真 值 缺失 的 情况 。 这 种 方法 在 处 理 时间 序 
列 数据 缺失 和 预测 方面 表现 出 了 显著 的 优势 。 

SSSD[24] 模 型 则 集成 了 条 件 扩散 模型 和 结构 化 
状态 空间 模型 ， 善 于 捕捉 时 间 序 列 中 的 长 期 依赖 关 
系 。 该 模型 在 时 间 序 列 归并 和 预测 任务 中 都 展现 了 
良好 的 性 能 ， 特 别 是 在 处 理 复杂 和 长 期 依赖 的 数据 
结构 时 ， 显 示 出 其 模型 的 优越 性 。 

TimeGrad[25] 模 型 基于 能 量 生成 模型 ， 结 合 
RNN[89] 和 扩散 模型 的 优势 来 捕获 时 间 序 列 的 特 
征 。 在 此 过 程 中 ， 它 通过 优化 数据 似 然 的 变 分 界 来 
学 习 梯度 ， 并 在 推理 时 使 用 Langevin 采样 通过 马尔 
科 夫 链 将 白 噪声 转换 为 感 兴趣 分 布 的 样本 。 这 种 方 
法 在 多 元 概率 时 间 序 列 预测 方面 表现 出 了 优异 的 性 
能 ， 尤 其 是 在 长 期 预测 和 复杂 数据 结构 的 学 习 上 。 


3.4 多 模 态 
3.4. 1 文本 转 图 像 
在 文本 转 图 像 领域 ， 扩 散 模 型 已 成 为 推动 技术 
发 展 的 关键 因素 之 一 ， 为 生成 描述 性 文本 对 应 的 图 
像 提 供 了 新 的 可 能 性 。 扩 散 模 型 的 应 用 在 提升 图 像 
质量 、 解 决 生成 偏差 以 及 提高 生成 效率 方面 展现 出 
了 显著 优势 。 
VQ-Diffusion[26] 模 型 在 文本 转 图 像 的 任务 中 
解决 了 先前 生成 模型 存在 的 单项 偏差 问题 。 该 模型 


利用 掩蔽 机 制 来 避免 在 推理 过 程 中 误差 的 累积 ， 从 
而 提高 了 生成 图 像 的 质量 和 准确 性 。 这 种 方法 不 仅 
提升 了 生成 图 像 与 输入 文本 的 相关 性 ， 也 提高 了 图 
像 的 细节 和 质量 。 
DALLE-2[27] 模 型 则 采用 了 一 种 两 阶段 的 方法 
来 实现 文本 转 图 像 的 任务 ,如 图 7 所 示 。 在 第 一 阶段 ， 
使 用 CLIP[90] 模 型 将 图 像 和 文本 转化 为 条 件 租 入 的 
先 验 模型 ， 在 第 二 阶段 ， 基 于 扩散 模型 的 解码 器 完 
成 图 像 嵌 入 工作 ， 从 而 生成 最 终 的 图 像 。 这 种 两 阶 
段 方法 充分 利用 了 扩散 模型 在 图 像 生 成 方面 的 优 
势 ， 同 时 也 保证 了 文本 信息 的 有 效 利 用 。 
Imagen[28] 模 型 则 由 一 个 用 于 文本 序列 的 编码 
器 和 一 个 用 于 生成 高 分 辩 率 图 像 的 级 联 扩散 模型 组 
成 。 通过 改进 原 有 的 U-Net 模型 来 进行 效率 的 提升 ， 
Imagen 模型 不 仅 提升 了 生成 图 像 的 分 辩 率 ， 还 提高 
了 整体 生成 过 程 的 效率 和 质量 。 
在 文本 到 3D 图 像 生 成 领域 ，OpenAI 提出 的 
Point-E 模型 代表 了 该 领域 的 一 次 重要 技术 突破 ， 该 
模型 综合 运用 了 两 个 扩散 模型 的 策略 来 实现 从 文本 
述 到 3D 图 像 的 生成 。 这 一 方法 标志 着 文本 到 3D 


= 


图 像 生成 技术 的 新 发 展 方向 ， 提 供 了 一 种 高 效 和 精 
确 的 生成 策略 。 


图 7 通过 Imagen 生成 “ 舞 者 在 月 亮 上 跳舞 ”图 片 


Fig.7 Image generated by Imagen of a dancer dancing on 


the moon 
3.4.2 文本 转 语音 
EXER (Text-to-Speech, TTS) 领域 ， 扩 
散 模 型 被 应 用 于 创新 的 文本 到 语音 生成 方法 中 ， 旧 
在 提升 语音 合成 的 质量 、 效 率 和 自然 度 。 研 究 者 们 
通过 引入 新 的 架构 和 策略 ， 改 进 了 传统 TTS 系统 的 
性 能 ， 为 语音 合成 技术 提供 了 新 的 可 能 性 。 
Grad-TTS[30] 模 型 提出 了 一 种 新 颖 的 文本 到 语 
音 解决 方案 ， 即 带 有 分 数 的 解码 器 。 这 种 模型 逐渐 
转换 编码 器 预测 的 噪声 ， 并 通过 单调 对 齐 搜索 生成 
与 文本 输入 对 齐 的 梅 尔 频谱 图 。 这 种 方法 有 效 地 将 
文本 信息 转化 为 高 质量 的 语音 ， 提 高 了 语音 合成 的 
自然 度 和 准确 性 。 
DiffTTS[32] 模 型 则 解决 了 由 于 双 射 约束 对 模型 


= 


宽度 限制 导致 的 有 效 容量 不 足 问题 ， 通 过 用 噪声 增 


量 填 充 中 间 表 示 , 有 


效 地 提升 了 模型 的 容量 和 性 能 。 


这 种 方法 不 仅 提高 了 语音 合成 的 效率 ， 也 提升 了 生 


成 语音 的 质量 和 自然 度 。 
ResGrad[33] 模 型 作为 一 种 轻 量 级 扩散 模型 ， 使 
用 残 差 作为 生成 目标 来 改进 原来 需要 从 头 到 尾 合成 


语音 的 过 程 。 它 将 现 有 的 TTS 模型 的 推理 过 程 变 为 


即 插 即 用 的 方式 ， 极 大 地 提高 了 语音 合成 的 灵活 性 


和 适应 性 。 这 种 方法 在 提升 生成 语音 的 质量 的 同时 ， 


也 降低 了 模型 的 复杂 度 和 计算 需求 。 


3.4.3 文本 转 视频 


在 文本 转 视频 生成 领域 ， 扩 散 模 型 的 应 用 为 视 
频 编辑 和 生成 提供 了 新 的 视角 和 方法 。 随 着 技术 的 
不 断 发 展 ， 扩 散 模 型 在 处 理 更 复杂 的 多 媒体 任务 


展现 出 其 独特 的 优势 和 潜力 。 
Dreamix[91] 模 型 利用 扩散 模型 的 特性 ， 在 推理 
阶段 根据 所 提供 的 文本 信息 ， 将 低 分 辩 率 信息 与 高 


分 辨 率 信 息 相 结合 进行 视频 编辑 。 该 模型 通过 微调 


模型 的 初步 阶段 ， 有 效 提 高 了 编辑 视频 的 保 真 度 和 


准确 性 。 这 种 方法 不 仅 提升 了 视频 编辑 的 质量 ， 也 


为 基于 文本 的 视频 内 容 创作 提供 了 一 种 高 效 和 灵活 


的 解决 方案 。 


Tune-A-Video[92] 模 型 将 文本 生成 视频 问题 视 
为 生成 一 系列 连续 图 像 的 问题 ， 通 过 提出 一 种 稀 下 C 
因果 注意 力 机 制 ， 将 原本 用 于 图 像 生成 中 的 空间 


注意 力 扩展 到 时 空域 中 。 这 种 方法 有 效 地 完成 了 视 


频 的 生成 工作 , 提高 


了 生成 视频 的 连续 性 和 自然 度 ， 


同时 也 增强 了 模型 对 


3.5 跨 学 科 领 域 


视频 内 容 和 结构 的 理解 能 力 。 


3.5.1 医学 图 像 领 域 


医学 图 像 领域 的 应 用 中 , 扩散 模型 为 图 像 重 建 、 


缺陷 检测 等 任务 提供 了 新 的 解决 方案 ， 表 现 出 其 在 


处 理 高 维 医学 数据 和 复杂 医学 问题 中 的 潜力 和 优 


势 。 


针对 从 测量 数据 重建 图 像 的 逆 问 题 ， 研 究 者 


[38,39] 利 用 分 数 生成 模型 作为 一 种 先进 的 图 像 重 建 
工具 ， 通 过 与 先 验 数据 一 致 性 来 重建 图 像 。 这 种 方 


相符 的 高 质量 图 像 ， 
效 的 策略 。 


法 利用 扩散 模型 的 特性 ， 能 够 生成 与 实际 医学 图 像 


为 医学 图 像 重 建 提供 了 一 种 有 


Kim 等 人 [34] 提 出 的 由 扩散 模块 和 变形 模块 组 


成 的 DDM 模型 ， 专 


门 用 于 学 习 源 体积 和 目标 体积 


之 间 的 空间 变形 信息 。 该 模型 通过 生成 变化 过 程 的 


图 像 来 生成 4D (3D 


图 像 加 时 间 ) 的 心脏 数据 ， 有 


效 地 提升 了 心脏 数据 的 生成 质量 和 精度 ， 为 心脏 疾 
病 的 诊断 和 治疗 提供 了 重要 的 图 像 支持 。 
在 医学 缺陷 检测 任务 上 ，DDPM 模型 被 提出 来 


为 医学 诊断 提供 了 一 


段 。 
3. 5. 2 分 子 建 模 领 域 


蔡 代 传统 的 自 编码 器 模型 [35-37] 进 行 健康 图 像 的 1， 
练 。 在 推理 时 ， 通 过 将 原始 图 像 中 减 去 生成 的 健康 
图 像样 本 来 检测 异常 ， 从 而 实现 高 精度 的 医学 缺陷 
检测 。 这 种 方法 不 仅 提 升 了 缺陷 检测 的 准确 性 
:更 为 有 效 和 可 靠 的 技术 手 


在 分 子 建 模 领域 ， 特 别 是 蛋白 质 分 子 的 建 模 ， 


g 


扩散 模型 被 


I 


J 


b 人 


于 学 习 和 生成 蛋白 质 的 动态 结构 信 


息 ， 这 些 研究 为 蛋白 质 结构 预测 和 设计 提供 了 新 的 


策略 和 工具 。 


Anand 等 人 [40] 的 研究 利用 扩散 台 


Ye Sl SM 


T A ew 


结构 信息 。 


ProteinSGM[41] 模 型 将 和 蛋 
为 图 像 修复 问题 ， 并 基于 条 件 扩散 入 
质 结构 进行 精确 建 模 。 这 种 方法 通过 类 比 图 
的 策略 ， 为 复杂 的 蛋白 质 结构 提供 了 一 种 新 的 精确 


白质 的 旋转 和 平移 等 动态 的 结构 信息 ， 从 而 生 


质 的 基础 结构 与 序列 。 这 种 方法 通过 捕捉 和 蛋 


成 模型 去 学 


的 动态 特性 ， 可 以 生成 更 准确 和 生物 学 上 可 
白质 结构 ， 为 蛋白 质 工 程 和 药物 设计 提供 了 重 


建 模 方式 ， 提 高 了 蛋白 质 结构 预测 的 精度 和 效率 。 


DiffFolding[42] 模 型 则 将 蛋白 质 


骨架 结 


ra 


TT 


质 的 建 模 过 程 表述 
E 成 方法 对 蛋白 


像 修 复 


构 看 做 


一 系列 连续 的 角度 ， 用 来 捕捉 组 成 氨基 酸 残 基 的 相 


H 


对 方向 。 结 合 扩散 生成 模型 ， 该 模型 从 随机 未 折 芋 


的 结构 生成 新 的 稳定 折合 结构 。 这 不 仅 能 够 


提供 蛋白 质 的 可 能 折 有 登 结 构 ， 还 能 够 揭示 蛋白质 折 


县 过 程 中 的 细节 和 规 得 


开发 提供 了 新 的 视角 。 


， 为 蛋白 质 功能 研究 和 药物 


4 存在 的 问题 以 及 对 未 来 研究 方向 的 


基于 当前 研究 ， 扩 散 模 型 已 用 
示 出 其 显著 优势 与 广阔 潜力 。 然 而 ， 其 发 展 仍 面临 
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首先 ， 扩 散 模 型 在 正 向 过 程 中 转化 原始 图 
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又 和 较 长 的 采样 时 间 ， 从 而 增 力 
如 何在 预期 时 间 内 优化 前 向 力 


收敛 至 特定 先 验 分 布 ， 
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并 加 入 自 适 应 机 
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究 的 关键 。 
其 次 , 扩散 模型 的 生成 过 程 依赖 长 马尔 科 夫 链 ， 
使 得 整个 过 程 呈 现 出 一 种 黑 盒 特性 ， 这 限制 了 对 依 
赖 关系 的 捕捉 和 模型 优化 的 理解 。 当 前 ， 研 究 需 要 
关注 如 何 将 扩散 模型 分 解 为 独立 单元 以 便 进 行 白 盒 
化 处 理 ， 以 及 如 何 优化 默认 的 马尔 科 夫 链 ， 采 用 易 
于 捕捉 和 训练 的 奉 代 模 型 。 
第 三 ， 衍 生 自 扩散 模型 的 改进 模型 仍 多 基于 
DDPM 的 原始 设 定 。 未 来 研究 可 以 考虑 将 扩散 模型 
作为 一 种 广义 模型 类 型 ， 基 于 采样 算法 、 扩 散 方 案 
及 构建 先 验 分 布 等 核心 思想 进行 独立 研究 ， 使 其 与 
其 他 现 有 模型 更 容易 结合 ， 扩 展 应 用 范围 。 
第 四 ， 当 前 扩散 模型 生成 样本 的 评估 主要 基于 
FID 分 数 ， 但 这 一 评估 无 法 全 面 反 映 样本 的 恢复 效 
果 和 多 样 性 。 因 此 ， 开 发 新 的 评估 指标 以 更 全 面 评 
价 模 型 生成 样本 质量 是 未 来 研究 的 重要 方向 。 

最 后 , 扩散 模型 训练 通常 采用 证 据 下 界 (ELBO) 
最 小 化 后 验 分 布 与 先 验 分 布 间 的 KL BUE. AT, 
ELBO 与 NLL 的 同时 优化 理论 尚未 得 到 证 实 ， 导致 
实际 样本 与 目标 样本 存在 潜在 不 匹配 问题 。 此 问题 
关系 到 模型 的 实际 可 靠 性 和 实用 性 ， 吸 需 深入 研究 
和 解决 。 

总 体 来 看 ， 扩 散 模 型 未 来 的 研究 将 聚焦 于 优化 
采样 算法 、 降 低 模型 复杂 度 、 提 高 采样 效率 等 方面 。 
具体 可 以 考虑 转化 传统 的 逐步 采样 算法 为 更 有 效 的 
方法 ， 如 哈密 顿 蒙特 卡 罗 方 法 CHMC )， 引 入 预 训 
练 模型 初始 化 参数 ， 和 采用 更 优 超 参数 加 速 训 练 过 
程 。 这 些 优化 方向 都 是 值得 进一步 探索 和 研究 的 。 
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